最近的基于学习的方法在单拍摄像机本地化领域取得了令人印象深刻的结果。,如何最好地融合多种方式(例如,图像和深度)以及处理降级或缺失的输入的方法较少。特别是我们注意到,先前的深融合方法的性能并不比采用单个模式的模型要好得多。我们猜想这是因为通过求和或串联采用了幼稚的方法,这些方法没有考虑到每种模态的不同强度。为此,我们提出了一个称为VM-loc的端到端框架,将不同的传感器输入融合到一个由基于注意力的融合的各种杂货店(POE)中,将不同的传感器输入融合到一个共同的潜在空间中。与以前的多模式变分作品直接适应了香草变分的自动编码器的目标函数,我们展示了如何通过基于重要性权重的无偏见的ob效函数来准确估算摄像机局部ization。我们的模型在RGB-D数据集上进行了广泛的评估,结果证明了我们的模型的功效。源代码可在https://github.com/kaichen-z/vmloc上获得。
主要关键词